Back Propagation

Study /

AI /

Deep Learning /

Back Propagation /

Back Propagation

Create : 2024년 5월 29일 16:20Update : 2025년 8월 22일 23:31

# Tag:

Source/KU_DL
Source/KU_ML2

Back Propagation(오차 역전파)

ANN의 hidden layer의 오차를 업데이트 하는 방법. hidden layer의 출력값은, 드러나지 않으므로 알 수 없으니 output layer의 Loss function을 편미분하여 Chain-Rule을 이용해 hidden layer의 가중치를 업데이트 한다.

Weights $W$ 의 업데이트는 Loss function에 대해 $L (W)$ 의 꼴로 볼 수 있으므로, $\nabla L (W)$ 를 이용해 Gradient Descent하는 방식으로 이루어진다.

Why use Chain-Rule?

하지만 ANN은 여러 layer가 복잡하게 쌓여져 있는, linear function과 non-linear function이 복잡하게 얽혀있는 구조이므로 한번에 그 편미분을 구하기는 거의 불가능에 가깝다. 이를 해결하기 위해 각 function에 대하여 Chain-Rule를 이용해 끊어 계산한다.

수정수정

Hidden Layer update

Multilabel classification

만약

K

개의 independent한 이진 분류를 수행한다고 하면, 각각의 K개에 대해서 그 밑의 Hidden Layer를 공유하도록 하여 model을 만들 수 있다.

E = k \sum (- r_{k} lo g y_{k} - (1 - r_{k}) lo g (1 - y_{k}))

BCE의 합을 [[Loss]] 함수로 사용하여 업데이트 된다.

즉, Hidden layer가 업데이트를 공유시키므로써 일종의 dynamic programming을 통해 계산 성능을 향상시킨다.

이는 Multitask Learning이라고도 불리는데, task(이진 분류)는 여러 개를 수행하면서 Hidden Layer는 공유하기 때문이다.

Known-form partial derivative function

편의를 위해, 그 입력으로

d

차원의 vector

x

가 들어 왔다고 가정한다.

Sigmoid function

$\frac{\partial σ ( x )}{\partial x} = σ (x_{1}) (1 - σ (x_{1})) 0 ⋮ 0 0 σ (x_{2}) (1 - σ (x_{2})) 0 000 \dots \dots \dots 00 0 σ (x_{d}) (1 - σ (x_{d}))$

$d \times d$ 꼴의 matrix이며, sparse 하므로 행렬 곱을 통해 계산할 때는 diagonal의 행렬로 단순화 된다.

Cross Entropy Loss

$\frac{\partial L}{\partial x} = [y_{1} \frac{1}{x _{1}} y_{2} \frac{1}{x _{2}} \dots y_{d} \frac{1}{x _{d}}]$

이 때, $y_{i}$ 는 label에 대한 one-hot vector.

With Softmax

보통 softmax function(

s

)과 많이 결합시켜 사용된다.

{\frac{\partial s ( x _{i} )}{\partial x _{i}} = s (x_{i}) (1 - s (x_{i})) \frac{\partial s ( x _{i} )}{\partial x _{j}} = - s (x_{i}) s (x_{j}) i \neq = j

$s (x) = s_{1} s_{2} ⋮ s_{d}$ 의 결과를 만들어 낸다고 하면, 이에 대한 Jacobian은

\frac{\partial s}{x} = s (x_{1}) (1 - s (x_{1})) - s (x_{1}) s (x_{2}) ⋮ - s (x_{d}) s (x_{1}) - s (x_{1}) s (x_{2}) - s (x_{2}) (1 - s (x_{2})) - s (x_{d}) - s (x_{2}) - s (x_{1}) s (x_{3}) - s (x_{2}) s (x_{3}) - s (x_{d}) s (x_{3}) \dots \dots \dots - s (x_{1}) s (x_{d}) - s (x_{2}) s (x_{d}) s (x_{d}) (1 - s (x_{d}))

cross Entropy에 대하여 Chain-Rule로 연결하면

\frac{\partial L}{\partial x} = \frac{\partial L}{\partial s} \frac{\partial s}{\partial x} = - [y_{1} - s (x_{1}) i \sum y_{i} y_{2} - s (x_{2}) i \sum y_{i} \dots y_{d} - s (x_{d}) i \sum y_{i}]

이 때, $i \sum y_{i} = 1$ 이 되므로(one-hot vector), 결국에는

[s (x_{1}) - y_{1} s (x_{2}) - y_{2} \dots s (x_{d}) - y_{d}]

의 row vector로 변환된다.

With Sigmoid

Sigmoid function과 결합하였을 때도 편미분에 대해 편리한 꼴이 나온다.

\frac{\partial L}{\partial x} = \frac{\partial L}{\partial σ} \frac{\partial σ}{\partial x} = - [y_{1} (1 - σ (x_{1})) y_{2} (1 - σ (x_{2})) \dots y_{d} (1 - σ (x_{d}))]

For $f = W x$

for $\frac{\partial f}{\partial W}$

vector에 대한 Matrix의 미분이므로 그 Jacobian은 Tensor의 형태로 나온다.

Let $W \in R^{m \times n}, x \in R^{n}$ . 이 때, $f$ 는 $m$ 차원의 벡터이므로 Jacobian은 $m \times m \times n$ 이 된다.

$f_{1} = W_{11} x_{1} + W_{12} x_{2} + W_{13} x_{3} + \dots + W_{1 n} x_{n}$
$f_{2} = W_{21} x_{1} + W_{22} x_{2} + W_{23} x_{3} + \dots + W_{2 n} x_{n}$
$f_{m} = W_{m 1} x_{1} + W_{m 2} x_{2} + W_{m 3} x_{3} + \dots + W_{mn} x_{n}$

의 꼴이 되고, 이에 대해서 각각을 $W$ 로 편미분 하면 각각의 $i$ 번째 행에 대하여,

\frac{\partial f _{i}}{\partial W} = 0 x_{1} 0 0 x_{2} 0 0 ⋮ x_{3} ⋮ 0 \dots \dots \dots 0 x_{n} 0

꼴이 나오게 되고, 이러한 $m \times n$ 행렬이 총 $m$ ( $f_{i}$ 의 개수)개로 쌓여있는 tensor 형태이다.

결국에는 특정 행만 존재하는 Sparse한 형태의 Matrix의 Vector이므로, 어떠한 upstream $q^{⊤} = \frac{\partial L}{\partial f}$ 에 대하여,

\frac{\partial L}{\partial f} \frac{\partial f}{\partial W} = q_{1} x^{⊤} q_{2} x^{⊤} ⋮ q_{m} x^{⊤} = q x^{⊤}